您现在的位置是:巢湖新闻网 > 时尚

合合消息推出多模态文本智能技术落地方案,助力AI达成智能推理

巢湖新闻网2025-10-24 02:45:08【时尚】1人已围观

简介伴随人工智能深刻各行各业,多模态大模型正在变成AI进展的关键方向之一。近期,由我国图象图形学学会、我国人工智能学会、我国计算机学会和我国自动化学会联合主办,上海交通大学承办的第八届我国形式识别与计算机

伴随人工智能深刻各行各业,多模态大模型正在变成AI进展的关键方向之一。近期,由我国图象图形学学会、我国人工智能学会、我国计算机学会和我国自动化学会联合主办,上海交通大学承办的第八届我国形式识别与计算机视觉学术会议(PRCV 2025)顺利举行。大会期间,“多模态文本智能大模型前沿技术与应用”论坛(简称“论坛”)获取了广泛重视。论坛汇集了来自华南理工大学、哈尔滨工业大学、南开大学、华中科技大学、小红书及合合消息技术团队的顶尖专家与学者,深刻探讨多模态文本智能领域的最新技术突破与场景应用案例。

图说:我国图象图形学学会(CSIG)常务理事、华南理工大学教授金连文致辞

如同人类需求与此同时调用视觉、听觉、触觉等多感官来全面地领会外部世界,大模型也需求综合处置文字、图片、表格等文本消息后做出判断。“实战”应用标准对大模型的多模态内涵深度整合实力提出了新的需求,语义割裂、场景领会局限、决策失误等广泛的模型缺陷制约了其在产业中的应用进展。合合消息在论坛期间推出“多模态文本智能技术”方案,该方案可经过文本相干空间位置领会深层语义逻辑,达成对多模态消息的“立体化综合化领会”,赋予模型确实的文本“阅读领会”实力。

文本智能技术助力办理多模态AI应用难题

多模态指运用多种不同形式或感知渠道的消息开展表达、沟通和领会的方法,数字模态包含文本、图像、音频、视频等。2025年Gartner人工智能技术成熟度曲线表明,多模态AI将在将来五年变成各产业提升全体应用和软件产品功能的核心技术。围绕多模态大模型性能优化及产业应用等难题,论坛嘉宾开展了一场深刻的讨论。

旨在助力大模型达成跨越模态的推理实力,哈尔滨工业大学计算学部长聘教授、博士生导师车万翔重点分享了“多模态思维链”技术,该技术将推理逻辑分解为一系列可阐明的跨模态推理步骤,最终生成更为精准和可靠的结论。除了协助大模型理清逻辑,办理“胡编乱造”难题也是提升AI实力的关键方向。南开大学教授周宇介绍了一种系统化的OCR幻觉缓解方案,为多模态大模型的可视文本感知实力提升给予了有效路径。

真实的应用场景是技术持久迭代更新的动力。论坛现场,合合消息图像算法研发总监郭丰俊重点分享了文本智能技术的革新应用,协助顾客办理复杂场景下的文档图像难题。小红书hi lab团队算法工程师燕青结合产业实践,分享了一款鉴于单视觉语言模型的多语言文档布局解析工具“dots.ocr”。

除了商业应用,在文保领域,多模态大模型也发挥出了巨大价值。华中科技大学教授刘禹良在主题演讲中介绍了首个覆盖甲骨文专家破译全流程的辅助考释框架AlphaOracle,经过人类工作流启发的音形义理破译流程,达成字形解析、拓片用法归纳和传世文献做证的思路,胜利在“劳”等字的辅助破译上获取突破。

多模态文本智能技术构建“感知-认知-决策”技术新范式  

从文字、图像到视频,不论模态怎样演变,其所承载的文本消息始终是AI领会世界的基座。达成具备自主感知、认知与决策实力的通用人工智能(AGI),首要前提是让机器充分领会当做知识载体的“文本”。鉴于此,合合消息推出了“多模态文本智能技术”方案,将技术处置对象从常规的文档(如PDF、Word等格式文件)延伸至多种承载文本消息的媒介,不论是论文、财报依然视频、天然场景,都能变成系统的领会对象。

图说:合合消息图像算法研发总监郭丰俊开展主题分享

在常规的文档处置技术中,“怎样准确地提取消息”是重点重视方向。然而在真实业务场景中,消息往往以多模态组合形态现存,例如财报的数字需对照表格验证,国家标准文件中的插图依赖图例阐明。旨在办理多模态消息的协同解读需求,方案设立了从复杂场景文本感知到深层语义领会的技术闭环,让AI不但能够“看清”文本,更能够领会其布局关联,办理不同模态间的消息割裂难题。

目前,“多模态文本智能技术”方案已将文本智能认知程度从语义领会拓展到类人推理及自主机器决策,构成了从感知到认知再到决策的技术达成路径。相较于常规的文档解析、识别系统,该方案让系统具备了更接近人类判断逻辑的自主决策实力,在完成对多模态消息的感知和领会后,能够依据顾客意图,做出正确的决策。

伴随多模态大模型融入产业进程,产业对AI系统的需求正从“功能达成”向“业务赋能”深化。合合消息“多模态文本智能技术”方案旨在促进AI系统从辅助工具进化为具备自主决策实力的业务伙伴,提升其在复杂场景中展现出的难题解析、决策思维及端到端办理难题的实力。方案已在金融、医药、教育等专门领域开展应用,经过对复杂文本的精准感知、综合领会和可靠决策,达成对业务流程的智能重构。

很赞哦!(7)